iT邦幫忙

2024 iThome 鐵人賽

DAY 26
0
生成式 AI

LLM 應用、開發框架、RAG優化及評估方法 系列 第 26

Day26 GAI爆炸時代 - RAG 評估方法

  • 分享至 

  • xImage
  •  

終於要到了尾聲,接下來要介紹的是怎麼去評測RAG
這邊參考了一些文獻,自己整理出的幾項標準與工具!

https://ithelp.ithome.com.tw/upload/images/20240826/20168537de8LXZ6rpN.png

除了上述,還有許多種的評估指標

  1. BLEU (Bilingual Evaluation Understudy)_score : BLEU 分數是用於評估機器翻譯或語言基礎的生成能力。RAG 模型可以根據輸入 prompt 和檢索到的文本資料來產生最終結果,因此 BLEU 分數是一個適合的評估指標。
  2. Perplexity (PPPL) : PPPL 是用於評估生成模型性能的一種指標,越低的 PPPL 表示生成模型越好。RAG 模型可以根據檢索到的文本資料和輸入 prompt 來產生最終結果,因此 PPPL 也是適合的評估指標。
  3. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) : ROUGE 是用於評估生成模型性能的一種指標,主要考慮生成結果是否包含檢索到的文本資料中的重要信息。RAG 模型可以根據輸入 prompt 和檢索到的文本資料來產生最終結果,因此 ROUGE 也是適合的評估指標。
  4. CRAG(Comprehensive RAG Benchmark):最近,Meta AI團隊就推出一款名為CRAG的測試基準,可用來測試RAG系統的表現,也就是LLM結合外部知識進行問答的能力。

CRAG包含4,409個問答組,測試範圍橫跨5大領域,如金融、運動、音樂、電影和百科,另外包含8種問題類型,像是條件式簡單問題、比較型問題、加總型問題等。CRAG可測試2種RAG能力,包括網路搜尋和API串接形式,讓使用者了解自家系統在動態和靜態事實下的檢索、合成與生成能力。

Meta團隊也用CRAG來評估LLM,發現最先進的語言模型準確率只有34%,透過RAG加持可提升到44%。而且,即便是業界先進的系統,在處理動態和複雜查詢時,也只能回答63%的問題且不產生幻覺。Meta希望透過CRAG,來推動問答系統的創新和進步,克服語言模型的幻覺和知識差距。與此同時,CRAG也是Meta今年3月展開的KDD Cup 2024挑戰賽基準,全球已有數千名參賽者來測試、精進自家RAG系統,Meta團隊也會持續擴充CRAG,來推進RAG技術發展。但此技術太新啦,我們這邊就不先進行琢磨
https://ithelp.ithome.com.tw/upload/images/20240826/201685378AZQCJ2rQK.png

這邊快速介紹Ragas 和 trulens這兩種主流評測RAG的工具:

1. RAGAS

RAGAS(RAG Assessment System)是一個專門設計來評估RAG系統性能的工具。它提供了多種評估指標,幫助使用者對RAG系統進行全面的分析。以下是RAGAS的一些主要特點:

  • 多維度評估:RAGAS通過多個維度來評估RAG系統的性能,例如回應的語義相似度、回應的流暢度、以及回答的精確性和相關性等。

  • 語義相似度:RAGAS使用語義相似度來評估生成的回答與期望回答之間的相似度,這可以幫助確保系統能夠生成與上下文和問題高度相關的回答。

  • 自動化評估:RAGAS支持自動化的評估流程,這使得大規模的系統測試和調整變得更加容易和高效。

  • 靈活性:RAGAS允許使用者定義自己的評估指標和權重,根據具體的應用場景來調整評估標準。

2. TruLens

TruLens是一個開源工具,旨在提供透明度和可信性評估,尤其是針對生成式AI模型。它不僅僅用於RAG系統的評估,也可以用於其他類型的生成式模型。TruLens的設計目的是幫助開發者和使用者理解模型的決策過程,並通過可視化和解釋生成的結果來提高模型的可信性。

以下是TruLens的一些主要特點:

  • 透明度和解釋性:TruLens提供了對生成式模型的內部運作機制的可視化和解釋,幫助使用者理解模型如何得出特定的結果。

  • 可視化工具:TruLens內建了豐富的可視化工具,用來展示模型的推理過程、生成結果與輸入之間的關聯性,以及模型在不同場景下的表現。

  • 多層次評估:TruLens可以從多個層次來評估生成式模型的性能,包括語義層面、語法層面以及應用層面。

  • 互操作性:TruLens支持多種生成式模型框架,可以方便地與不同的AI開發工具集成,為開發者提供靈活的使用體驗。

  • 社區和開源:TruLens作為開源工具,擁有活躍的社區支持,使用者可以參與到工具的改進中,並分享他們的經驗和最佳實踐。

兩者都可以根據需求用來提升RAG系統的質量和可靠性。
但再下一章節,我這邊將主要針對Ragas來去細談,因為此套件已經有寫好SDK來去方便供測試
而且!而且!
它在Github上的star數量是trulens的3倍,這也是我們考量要點之一XD
所以後來就選擇用Ragas來實作啦!
下一章將詳細介紹Ragas 與提供評測code!


上一篇
Day25 GAI爆炸時代 - Advanced RAG 介紹
下一篇
Day27 GAI爆炸時代 - Ragas介紹
系列文
LLM 應用、開發框架、RAG優化及評估方法 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言